深神经网络(DNN)的成功在很大程度上取决于计算资源。虽然DNN经常在云服务器上使用,但在边缘设备上运行DNN的需求越来越大。边缘设备的计算资源通常受到限制,但是,通常将多个边缘设备部署在相同的环境中,并且可以可靠地相互通信。在这项工作中,我们建议通过允许多个用户在推理过程中协作以提高其准确性来促进DNN在优势上的应用。我们的机制(创造的机制)基于每个设备的各种预测因子,在推理过程中构成了模型集合。为了减轻通信开销,用户共享量化的功能,我们提出了一种将多个决策汇总到单个推论规则中的方法。我们分析了边缘合奏所引起的延迟,表明其性能提高是以在通信网络上的共同假设下的较小延迟成本为代价的。我们的实验表明,配备紧凑型DNN的Edge合奏的协作推断显着提高了让每个用户在本地推断出的精度,并且可以使用大于整体中所有网络的单个集中式DNN胜过。
translated by 谷歌翻译
This article presents a novel review of Active SLAM (A-SLAM) research conducted in the last decade. We discuss the formulation, application, and methodology applied in A-SLAM for trajectory generation and control action selection using information theory based approaches. Our extensive qualitative and quantitative analysis highlights the approaches, scenarios, configurations, types of robots, sensor types, dataset usage, and path planning approaches of A-SLAM research. We conclude by presenting the limitations and proposing future research possibilities. We believe that this survey will be helpful to researchers in understanding the various methods and techniques applied to A-SLAM formulation.
translated by 谷歌翻译
Monocular Depth Estimation (MDE) is a fundamental problem in computer vision with numerous applications. Recently, LIDAR-supervised methods have achieved remarkable per-pixel depth accuracy in outdoor scenes. However, significant errors are typically found in the proximity of depth discontinuities, i.e., depth edges, which often hinder the performance of depth-dependent applications that are sensitive to such inaccuracies, e.g., novel view synthesis and augmented reality. Since direct supervision for the location of depth edges is typically unavailable in sparse LIDAR-based scenes, encouraging the MDE model to produce correct depth edges is not straightforward. In this work we propose to learn to detect the location of depth edges from densely-supervised synthetic data, and use it to generate supervision for the depth edges in the MDE training. %Despite the 'domain gap' between synthetic and real data, we show that depth edges that are estimated directly are significantly more accurate than the ones that emerge indirectly from the MDE training. To quantitatively evaluate our approach, and due to the lack of depth edges ground truth in LIDAR-based scenes, we manually annotated subsets of the KITTI and the DDAD datasets with depth edges ground truth. We demonstrate significant gains in the accuracy of the depth edges with comparable per-pixel depth accuracy on several challenging datasets.
translated by 谷歌翻译
We introduce MuJoCo MPC (MJPC), an open-source, interactive application and software framework for real-time predictive control, based on MuJoCo physics. MJPC allows the user to easily author and solve complex robotics tasks, and currently supports three shooting-based planners: derivative-based iLQG and Gradient Descent, and a simple derivative-free method we call Predictive Sampling. Predictive Sampling was designed as an elementary baseline, mostly for its pedagogical value, but turned out to be surprisingly competitive with the more established algorithms. This work does not present algorithmic advances, and instead, prioritises performant algorithms, simple code, and accessibility of model-based methods via intuitive and interactive software. MJPC is available at: github.com/deepmind/mujoco_mpc, a video summary can be viewed at: dpmd.ai/mjpc.
translated by 谷歌翻译
Robotic planning in real-world scenarios typically requires joint optimization of logic and continuous variables. A core challenge to combine the strengths of logic planners and continuous solvers is the design of an efficient interface that informs the logical search about continuous infeasibilities. In this paper we present a novel iterative algorithm that connects logic planning with nonlinear optimization through a bidirectional interface, achieved by the detection of minimal subsets of nonlinear constraints that are infeasible. The algorithm continuously builds a database of graphs that represent (in)feasible subsets of continuous variables and constraints, and encodes this knowledge in the logical description. As a foundation for this algorithm, we introduce Planning with Nonlinear Transition Constraints (PNTC), a novel planning formulation that clarifies the exact assumptions our algorithm requires and can be applied to model Task and Motion Planning (TAMP) efficiently. Our experimental results show that our framework significantly outperforms alternative optimization-based approaches for TAMP.
translated by 谷歌翻译
结肠镜检查是一种常规门诊手术,用于检查结肠和直肠的任何异常,包括息肉,憩室和结肠结构的狭窄。临床医生的大量时间用于在结肠镜检查过程中拍摄的快照,以维持医疗记录或进一步研究。自动化此步骤可以节省时间并提高流程的效率。在我们的工作中,我们收集了一个由专家注释的过程中的120个结肠镜检查视频和2416张快照的数据集。此外,我们开发了一种基于新颖的,视觉转化器的地标检测算法,该算法可以从结肠镜检查过程中鉴定出关键的解剖标志(阑尾孔,回肠瓣膜/盲肠地标和直肠翻新)。我们的算法在预处理过程中使用自适应伽马校正,以保持所有图像的一致亮度。然后,我们将视觉变压器用作特征提取主链和完全连接的基于网络的分类器头,将给定的框架分为四个类:三个地标或非地标框架。我们将视觉变压器(VIT-B/16)主链与RESNET-101和Convnext-B骨干进行了比较,这些骨干和Convnext-B骨干也接受了类似训练。我们报告了快照的测试数据集上的视觉变压器主链的精度为82%。
translated by 谷歌翻译
目的:并行成像通过用一系列接收器线圈获取其他灵敏度信息,从而加速了磁共振成像(MRI)数据,从而降低了相位编码步骤。压缩传感磁共振成像(CS-MRI)在医学成像领域中获得了普及,因为其数据要求较少,而不是平行成像。并行成像和压缩传感(CS)均通过最大程度地减少K空间中捕获的数据量来加快传统MRI获取。由于采集时间与样品的数量成反比,因此从缩短的K空间样品中的图像的反向形成会导致收购更快,但具有混乱的伪像。本文提出了一种新型的生成对抗网络(GAN),即雷德格尔(Recgan-gr)受到多模式损失的监督,以消除重建的图像。方法:与现有的GAN网络相反,我们提出的方法引入了一种新型的发电机网络,即与双域损耗函数集成的弹药网络,包括加权幅度和相位损耗函数以及基于平行成像的损失,即Grappa一致性损失。提出了K空间校正块,以使GAN网络自动化生成不必要的数据,从而使重建过程的收敛性更快。结果:全面的结果表明,拟议的Recgan-GR在基于GAN的方法中的PSNR有4 dB的改善,并且在文献中可用的传统最先进的CNN方法中有2 dB的改进。结论和意义:拟议的工作有助于显着改善低保留数据的图像质量,从而更快地获取了5倍或10倍。
translated by 谷歌翻译
在视频分析中,背景模型具有许多应用,例如背景/前景分离,变更检测,异常检测,跟踪等。但是,尽管在静态相机捕获的视频中学习这种模型是一项公认的任务,但在移动相机背景模型(MCBM)的情况下,由于算法和可伸缩性挑战,成功率更加重要。由于相机运动而产生。因此,现有的MCBM在其范围和受支持的摄像头类型的限制中受到限制。这些障碍还阻碍了基于深度学习(DL)的端到端解决方案的这项无监督的任务。此外,现有的MCBM通常会在典型的大型全景图像或以在线方式的域名上建模背景。不幸的是,前者造成了几个问题,包括可扩展性差,而后者则阻止了对摄像机重新审视场景先前看到部分的案例的识别和利用。本文提出了一种称为DEEPMCBM的新方法,该方法消除了上述所有问题并实现最新结果。具体而言,首先,我们确定与一般和DL设置的视频帧联合对齐相关的困难。接下来,我们提出了一种新的联合一致性策略,使我们可以使用具有正则化的空间变压器网,也不是任何形式的专业化(且不差异)的初始化。再加上在不破坏的稳健中央矩(从关节对齐中获得)的自动编码器,这产生了一个无端到端的无端正规化MCBM,该MCBM支持广泛的摄像机运动并优雅地缩放。我们在各种视频上展示了DEEPMCBM的实用程序,包括超出其他方法范围的视频。我们的代码可在https://github.com/bgu-cs-vil/deepmcbm上找到。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
类不平衡是分类任务中经常发生的情况。从不平衡数据中学习提出了一个重大挑战,这在该领域引起了很多研究。使用采样技术进行数据预处理是处理数据中存在的不平衡的标准方法。由于标准分类算法在不平衡数据上的性能不佳,因此在培训之前,数据集需要足够平衡。这可以通过过度采样少数族裔级别或对多数级别的采样来实现。在这项研究中,已经提出了一种新型的混合采样算法。为了克服采样技术的局限性,同时确保保留采样数据集的质量,已经开发了一个复杂的框架来正确结合三种不同的采样技术。首先应用邻里清洁规则以减少失衡。然后从策略上与SMOTE算法策略性地采样,以在数据集中获得最佳平衡。该提出的混合方法学称为“ smote-rus-nc”,已与其他最先进的采样技术进行了比较。该策略进一步合并到集合学习框架中,以获得更健壮的分类算法,称为“ SRN-BRF”。对26个不平衡数据集进行了严格的实验,并具有不同程度的失衡。在几乎所有数据集中,提出的两种算法在许多情况下都超过了现有的采样策略,其差额很大。尤其是在流行抽样技术完全失败的高度不平衡数据集中,他们实现了无与伦比的性能。获得的优越结果证明了所提出的模型的功效及其在不平衡域中具有强大采样算法的潜力。
translated by 谷歌翻译